我分析了10万条陈奕迅新歌《我们》的热门评论，竟发现这么一个秘密

查看原文

其他

丁彦军 2018-05-21

“

最近有一部“怀旧”题材的电影，未播先火，那就是刘若英的处女作——《后来的我们》。

青春，爱情，梦想，一直是“怀旧”题材的核心要素，虽然电影现在还未上映，但先行发布的主题曲《我们》，已经虐哭了不少人。在 MV 里，歌声清清浅浅，诉说着那些年关于爱情里的遗憾。

“我最大的遗憾，就是你的遗憾，与我有关”，下面就一起来感受一下吧。

https://v.qq.com/txp/iframe/player.html?vid=a00264ynwif&width=500&height=375&auto=0

这首歌是《后来的我们》中的主题曲，网易云音乐上线当天便席卷千万+播放量，现如今光是网易云上面的评论就马上突破了 10 万条。

网易云音乐一直是我们向往的“神坛“，听音乐看到走心的评论的那一刻，高山流水遇知音。

于是本文作者抓取了这首歌曲的热门评论，并做成图表、词云来展示，看看相对于这首歌最让人有感受的评论内容是什么。

抓数据

要想做成词云图表，首先得有数据才行，这里需要一点点的爬虫技巧。

基本思路为：

抓包分析
加密信息处理
抓取热门评论信息

抓包分析

我们首先用浏览器打开网易云音乐的网页版，进入陈奕迅《我们》歌曲页面，可以看到下面有评论。接着 F12 进入开发者控制台（审查元素）。

下面要做的是，找到歌曲评论对应的 url，并分析验证其数据跟网页现实的数据是否吻合，步骤如下图：

通过歌曲 id 轻松找到评论所在的链接

查看 hreaders 的信息，发现浏览器使用的是 POST 的方式进行的请求

具体字段如上图，会发现表单中需要填两个数据，名称为 params 和 encSecKey。

后面紧跟的是一大串字符，换几首歌会发现，每首歌的 params 和 encSecKey 都是不一样的。因此，这两个数据可能是经过一个特定的算法进行加密过的。

服务器返回的和评论相关的数据为 json 格式，里面含有非常丰富的信息（比如有关评论者的信息，评论日期，点赞数，评论内容等等），其中 hotComments 就是我们要找的热门评论，总共 15 条。

那我们的思路就很清晰了，只需要分析这个 api 并模拟发送请求，获取 json 进行解析就好了。

加密信息处理

经过我的测试，直接把浏览器上这俩数据拿过来就可以。但是要想真正的解决这个加密处理，还需要有点加解密的只是存储。

关于这两个参数如何解密，强大的知乎上其实已经有了答案的，感兴趣的朋友可以进去看一下：《如何爬网易云音乐的评论数？》https://www.zhihu.com/question/36081767

我们在这里就只需要用我们这种偷懒的办法就可以完成需求了。这里我就使用这么个临时的方法好了，而且对于不同的歌曲是可以重用的，待会我们可以验证一下。

抓取热门评论信息

代码块如下：

import requests
import json

url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_551816010?csrf_token=568cec564ccadb5f1b29311ece2288f1'

headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
   'Referer':'http://music.163.com/song?id=551816010',
   'Origin':'http://music.163.com',
   'Host':'music.163.com'
}
#加密数据，直接拿过来用
user_data = {
   'params': 'vRlMDmFsdQgApSPW3Fuh93jGTi/ZN2hZ2MhdqMB503TZaIWYWujKWM4hAJnKoPdV7vMXi5GZX6iOa1aljfQwxnKsNT+5/uJKuxosmdhdBQxvX/uwXSOVdT+0RFcnSPtv',
   'encSecKey': '46fddcef9ca665289ff5a8888aa2d3b0490e94ccffe48332eca2d2a775ee932624afea7e95f321d8565fd9101a8fbc5a9cadbe07daa61a27d18e4eb214ff83ad301255722b154f3c1dd1364570c60e3f003e15515de7c6ede0ca6ca255e8e39788c2f72877f64bc68d29fac51d33103c181cad6b0a297fe13cd55aa67333e3e5'
}

response = requests.post(url,headers=headers,data=user_data)

data = json.loads(response.text)
hotcomments = []
for hotcommment in data['hotComments']:
   item = {
       'nickname':hotcommment['user']['nickname'],
       'content':hotcommment['content'],
       'likedCount':hotcommment['likedCount']     
   }
   hotcomments.append(item)

#获取评论用户名，内容，以及对应的获赞数   
content_list = [content['content'] for content in hotcomments]
nickname = [content['nickname'] for content in hotcomments]
liked_count = [content['likedCount'] for content in hotcomments]

数据可视化

在获得相关评论数据后，我们将其做成图表与词云图，将让人看起来更直观。

接下来需要在自己电脑上安装需要的安装包： pyecharts（图表包）、matplotlib（绘图功能包）、 WordCloud（词云包）。其中，pyecharts 是一个用于生成 Echarts 图表的类库。

Echarts 是百度开源的一个数据可视化 JS 库，主要用于数据可视化，同时 pyecharts 兼容 Python2 和 Python3。

安装非常简单，只需：

pip install pyecharts

关于 WordCloud（词云包）安装过程中会出现的一些问题，我这里总结了一下分享给大家。

看到别人使用 WordCloud 可以方便地生成云词图，在数据可视化的方面会给我们带来很多便利。然而实际操作起来才发现，初学者还是容易遇到很多坑。

说明：已安装（Python 3.6.1）、系统为Windows 7

安装文件的获取

首先，按 win+r，输入 cmd，如下图：

然后，输入如下代码：

pip install wordcloud

结果呢？会报错的，会有文件缺失的问题。这一点不少人都有类似反馈。

于是在官网，看到这么一张图，灵机一动：

解决方案：在 Github 下载 WordCloud 的包，解压缩后，在对应目录下用 python setup.py install 安装。

操作如下图，进入刚才解压后的文件夹中，同时按住 shift+ 鼠标右键，启动 cmd。

安装 WordCloud 时出现报错信息：error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools

这种情况下，直接跟着提示内容进行就好。

解决方案：打开报错提示中的链接，下载并安装 Visual C++ 2015 Build Tools。

安装完 WordCloud 后，接下来就是代码的实现，利用之前获得评论用户名和对应的点赞数，将其制作成图表图：

from pyecharts import Bar

bar = Bar("热评中点赞数示例图")
bar.add( "点赞数",nickname, liked_count, is_stack=True,mark_line=["min", "max"],mark_point=["average"])
bar.render()

由此可以看出，获得最高赞数（95056）评论的是：

@鱼大叔Uncle：后来的我，离开了他，永远的离开了他，十年的感情不过寥寥几句话。后来的我，嫁给了一个很普通的人，没有他的浪漫，却有不一样的温暖。

大多数赞数为 20000-30000 之间，最低都达到 7000+，（基本与网页里评论中数据吻合）。

最后，我们将所有的热门评论内容，制作成词云图展示出来，代码块如下：

from wordcloud import WordCloud
import matplotlib.pyplot as plt

content_text = " ".join(content_list)
wordcloud = WordCloud(font_path=r"C:\simhei.ttf",max_words=200).generate(content_text)
plt.figure()
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis('off')
plt.show()

词云分析结果图如下：

从图中可以看出，很多人感慨，后来只有你我，再无我们。（注明：所有数据，是属于当时所爬取的数据）

后记

曾记得，郭敬明在书里写，“我们太年轻，以致于都不知道以后的时光，竟然那么长，长得足够让我忘记你，足够让我重新喜欢一个人，就像当初喜欢你那样。”

我们这一生，总是遇到太多的后来。从不懂爱到懂爱，从拥有到珍惜。

所幸是到了最后，无论过了多少年。后来的我们，都在对方身上，学会了如何去爱。

就像陈奕迅在歌里唱的，“有过执着，放下执着”。有些人啊，光是遇见就已经值得了。

我们确实没有了后来。

就让后来的我们，慢慢走，别回头。

不谈亏欠，感谢遇见。

只是在下一次遇见爱的时候，我们都要学会更懂得珍惜。

这才是爱的意义，也是我们为什么去爱。

参与话题讨论：“人生苦短，为何一定要学Python？”，（请点击链接，在此图文处留言）小编将精选10条最精彩的评论上墙，赠送《Python数据分析从入门到精通》书籍一本。

作者：丁彦军，一个痴恋于 Python 语言的程序猿

编辑：陶家龙、孙淑娟

来源：知乎专栏|恋习Python：https://zhuanlan.zhihu.com/p/35667053

精彩文章推荐：

人生苦短，为何一定要学Python？（文末有赠书）

3台机器轻松搭建一个高可用Redis服务架构

35岁是程序员的终点？工程师如何在工作中提升自己？

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！